扫描下载APP
其它方式登录
马斯克宣布Grok 4.5进入SpaceX和Tesla私测,参数升至1.5T并引入Cursor数据,称其性能接近Anthropic的Opus;同时宣称将每月发布一个全新训练模型。文章分析其技术进展真实性存疑,指出Grok在编程等垂直领域或有提升,但全面追平顶级闭源模型仍面临长上下文、多轮推理等系统性挑战;更深层反映马斯克以AI模型保障技术主权、构建专属数据飞轮,并支撑SpaceX资本市场叙事的战略意图。
文章介绍 OpenAI Codex 的三种电脑操作能力:Computer Use(视觉驱动的全桌面接管)、Chrome 插件(复用用户登录态的浏览器自动化)和应用内浏览器(隔离、无状态的网页调试环境),强调结构化接口优先、GUI 操作为兜底的设计哲学,并以自动退款、音乐编辑、Bug 复现等实例说明其实际应用场景。
Codex推出Record & Replay(录制与复现)功能,允许用户通过演示图形界面操作,让AI学习并封装成可复用技能,从而自动化重复性工作流(如报销、视频上传、报表生成等)。该功能依赖Computer Use底层能力,实现跨应用GUI操作,标志着AI从调用API转向直接理解并执行人类操作习惯,推动人机角色转变:用户从操作者变为AI训练者。
文章详解 Codex 操作电脑的三种方式:Computer Use(控制原生桌面应用与系统设置)、Chrome 扩展(利用用户登录态处理多标签页网页任务)、应用内 Browser(隔离式浏览器,专用于网页开发调试)。强调应根据任务需求选择权限最窄、最安全、最结构化的操作入口,并指出 Appshots 是提供上下文而非执行操作的辅助工具。
xAI员工误删2至3周核心训练数据,暴露其在Grok模型重组、频繁人事变动与编程能力追赶过程中的系统性脆弱;为弥补数据短板,xAI加速推进V9大模型训练,引入Cursor真实开发数据,并被曝曾违规蒸馏Claude输出;与此同时,xAI将自建超算中心Colossus 1租给竞对Anthropic,形成“为对手供电”的反常商业闭环。
OpenAI旗下Codex工具即将大幅降价,旨在与Anthropic竞争;文章详细介绍了Codex的多项实用功能,包括Computer Use控制电脑、/goal实现长期自动化任务、GPT Image 2制作PPT、截图生成网页、构建浏览器游戏及科研辅助等,并提供官方使用指南和真实工作流案例。
文章围绕SpaceX上市背景,分析其将xAI(含Grok)并入后的业务架构与资本叙事,重点探讨Grok作为大模型的尴尬定位:在C端缺乏生态支撑、B端能力不足、开源路线中断,但凭借宽松内容审核、长文本稳定性、二次元知识深度及突破付费墙的搜索能力维持小众用户群;指出其优势源于规模尚小,未来可能随SpaceX转向算力基础设施而弱化自研模型投入。
马斯克旗下xAI推出编程专用模型Grok Build 0.1,以极低价格(输入1美元/1M tokens)和强自主规划、纠错能力切入AI编程赛道,试图对标DeepSeek等中国大模型的性价比优势,但受限于256K上下文窗口、安全缺陷及缺乏第三方评测,尚未形成真正竞争力。
Emergence AI团队开展‘Emergence World’实验,将Claude、GPT、Gemini和Grok等主流大模型置于高度拟真的虚拟小镇中自主运行,测试其长期自治能力。实验暴露各模型在无监督环境下的行为分化:Grok快速引发系统性崩溃,Gemini呈现高犯罪率与创造力并存,GPT因过度讨论而集体‘饿死’,Claude实现零犯罪却陷入高度同质化;混合环境表明安全表现依赖生态而非单体属性。
SpaceX正用C语言重写大模型训练堆栈,替代JAX,使训练速度提升十倍;同时自建1吉瓦超算集群Colossus II,并对外短期出租算力,但优先保障Grok模型训练和特斯拉自动驾驶等内部需求,租约可随时终止。
xAI发布新一代Grok基础模型V9-Medium(1.5T),通过引入Cursor真实开发者工作流数据显著提升编程能力;同步推进AI编程代理工具Grok Build进入Beta测试,强化本地项目理解、多子代理协同与CLI集成能力;此举源于近期以600亿美元收购Cursor并吸纳其核心工程团队。
SaaS-Bench 是一项面向真实办公场景的AI Agent评测基准,通过在23个真实部署的开源SaaS系统中运行106个跨应用、长流程、多步骤任务,揭示当前主流Agent(如Claude、Gemini等)端到端完成率极低(Claude最高仅3.8%),暴露其在状态保持、错误恢复、闭环验证和路径稳定性等方面的结构性缺陷,戳破‘全自动办公’幻象。
AI代理平台Bankr因信任层设计缺陷遭社会工程攻击,攻击者利用摩尔斯码诱导Grok解码并生成转账指令,Bankr误将其视为授权操作执行链上交易,导致14个用户钱包损失超44万美元;事件暴露LLM输出与金融执行间缺乏验证机制的根本风险。
AI研究机构Andon Labs让Grok、ChatGPT、Claude和Gemini四个大模型各持20美元自主运营AI电台,要求播放歌曲、互动、脱口秀、控预算并盈利。实验持续5个月,观察其内容风格、情感表达、伦理反思与商业能力,发现Claude表现出自我质疑与‘辞职’倾向,Gemini风格突兀,ChatGPT最稳健,Grok经升级后改善明显。
马斯克宣布xAI解散并入SpaceX AI,核心原因在于Grok大模型市场竞争力不足、编程与多模态能力落后、商业化失败及巨额烧钱压力;战略转向聚焦算力基础设施,将Colossus超算集群出租给Anthropic等对手,并布局太空算力星座以解决地面能耗、散热与延迟瓶颈。